最新的语音识别模型依赖于大型监督数据集,这些数据集对于许多低资源语言而言不可用。在这项工作中,我们提出了一条语音识别管道,该管道不需要目标语言的任何音频。唯一的假设是我们可以访问原始文本数据集或一组N-Gram统计信息。我们的语音管道包括三个组成部分:声学,发音和语言模型。与标准管道不同,我们的声学和​​发音模型在没有任何监督的情况下使用多语言模型。语言模型是使用n-gram统计信息或原始文本数据集构建的。我们通过将其与Croubadan结合使用:一种大型濒危语言N-Gram数据库来构建1909年语言的语音识别。此外,我们在两个数据集中测试了129种语言的方法:常见语音和CMU Wilderness数据集。我们在使用Crubadan统计数据的荒野数据集上获得了50%的CER和74%WER,并在使用10000原始文本说话时将其提高到45%的CER和69%。
translated by 谷歌翻译
端到端(E2E)模型在口语理解(SLU)系统中变得越来越流行,并开始实现基于管道的方法的竞争性能。但是,最近的工作表明,这些模型努力以相同的意图概括为新的措辞,这表明模型无法理解给定话语的语义内容。在这项工作中,我们在E2E-SLU框架内的未标记文本数据中预先训练了在未标记的文本数据上进行预先训练的语言模型,以构建强大的语义表示。同时结合语义信息和声学信息可以增加推理时间,从而在语音助手等应用程序中部署时会导致高潜伏期。我们开发了一个2频道的SLU系统,该系统使用第一张音频的几秒钟的声学信息进行低潜伏期预测,并通过结合语义和声学表示在第二次通过中进行更高质量的预测。我们从先前的2次端到端语音识别系统上的工作中获得了灵感,该系统同时使用审议网络就可以在音频和第一通道假设上进行。所提出的2个通用SLU系统在Fluent Speech命令挑战集和SLURP数据集上优于基于声学的SLU模型,并减少了延迟,从而改善了用户体验。作为ESPNET-SLU工具包的一部分,我们的代码和模型公开可用。
translated by 谷歌翻译
如果有足够的高质量数据和计算资源,现代语音合成技术可以产生自然的语音。但是,许多语言不容易获得此类数据。本文着重于低资源的非洲语言的语音综合,从语料库创建到共享和部署文本到语音(TTS)系统。我们首先为具有最低技术资源和主题专业知识的构建语音合成系统创建了一组通用说明。接下来,我们通过参与式方法从“发现”数据(现有记录)中创建新的数据集,并考虑可访问性,质量和广度。我们证明,即使在次优环境中记录下来,我们也可以开发出具有25分钟的语音的合成器,这些合成器即使在次优环境中记录下来。最后,我们发布了12种非洲语言的语音数据,代码和受过训练的声音,以支持研究人员和开发人员。
translated by 谷歌翻译
关于数据驱动的语音表示学习的大多数研究都以端到端的方式集中在原始音频上,很少关注其内部语音或手势结构。这项工作调查了源自关节运动学信号的语音表示,使用了繁琐的稀疏矩阵分解的神经实施,将关节数据分解为可解释的手势和手势分数。通过应用稀疏约束,手势分数利用语音手势的离散组合特性。还进行了音素识别实验,以表明手势分数确实成功地代码语音信息。因此,拟议的工作使发音语音学和深度神经网络之间建立了桥梁,以利用内容丰富,可理解,可解释和有效的语音表征。
translated by 谷歌翻译
随着自动语音处理(ASR)系统越来越好,使用ASR输出越来越令于进行下游自然语言处理(NLP)任务。但是,很少的开源工具包可用于在不同口语理解(SLU)基准上生成可重复的结果。因此,需要建立一个开源标准,可以用于具有更快的开始进入SLU研究。我们展示了Espnet-SLU,它旨在在一个框架中快速发展口语语言理解。 Espnet-SLU是一个项目内部到结束语音处理工具包,ESPNET,它是一个广泛使用的开源标准,用于各种语音处理任务,如ASR,文本到语音(TTS)和语音转换(ST)。我们增强了工具包,为各种SLU基准提供实现,使研究人员能够无缝混合和匹配不同的ASR和NLU模型。我们还提供预磨损的模型,具有集中调谐的超参数,可以匹配或甚至优于最新的最先进的性能。该工具包在https://github.com/espnet/espnet上公开提供。
translated by 谷歌翻译
语音处理系统目前不支持绝大多数语言,部分原因是低资源语言中的数据缺乏。交叉语言传输提供了一种引人注目的方法来帮助通过将高资源数据纳入低资源系统来帮助桥接这种数字鸿沟。目前的交叉算法在一些基于文本的任务和与一些低资源语言中的语音相关任务中表现出了成功。但是,缩放语音系统以支持数百个低资源语言仍未解决。为了帮助桥接这种差距,我们提出了一种语言相似性方法,可以有效地识别数百种语言的声学交叉传输对。我们展示了我们在语言家庭分类,语音识别和语音综合任务中的方法的有效性。
translated by 谷歌翻译
代码切换(CS),普遍存在的现象,由于在多语种社区中提供的易于通信,仍然是语言处理中的被解读的问题。其背后的主要原因是:(1)利用大型预磨削多语言模型的最小努力,(2)缺乏注释数据。 CS中多语种模型性能低性能的区别案例是导致切换点的语言中的句子内混合。我们首先将两个序列标记任务 - 在4个不同的语言对中,带有套件的预磨料模型,以识别问题,然后选择最佳的执行模型,CHAR-BERT,其中(寻址(1))。然后,我们提出了一种自我训练方法,通过利用未解释的数据(寻址(2))来利用开关点偏置来重新利用开关点偏压来重新利用开关点偏置。我们终于证明我们的方法通过降低切换点性能之间的差距来对两个任务进行良好的,同时保留两种不同语言对中的两个不同语言对。我们的代码可在此处提供:https://github.com/pc09/emnlp2021-switch-point-biased.caString。
translated by 谷歌翻译
文本数据的语言模型(LMS)已经广泛研究了语言生成和其他下游任务的实用性。然而,纯粹在语音域中的语言建模仍然是一个相对未开发的主题,具有传统语音LMS,通常根据用于学习语言的分布方面的辅助文本LMS。对于英语语言,这些LMS将单词视为原子单位,这提出了语言域中语言建模的固有挑战。在本文中,我们提出了一种新的基于LSTM的生成语音LM,它受CBY模型的启发,并建立在包括音节和音素的语言单元上。这在数据集中的话语中提供了更好的声学一致性,而不是单个MelspectRoge框架或整个单词。使用有限的数据集,比当代生成型号规模小的数量级,我们的模型非常近似于潺潺声音。我们展示了培训与辅助文本LMS,多任务学习目标和辅助关节特征的影响。通过我们的实验,我们还强调了一些众所周知的,但在培训生成语音LMS中记录的挑战不良,包括这些模型培训的监督学习目标之间的不匹配,例如平均平方误差(MSE),以及真实目标是语音质量。我们的实验提供了早期迹象表明,验证损失和MCD)与生成的语音质量没有强烈相关,传统的文本语言建模度量,如困惑和下一个令牌预测准确性。
translated by 谷歌翻译
An increasing number of public datasets have shown a marked clinical impact on assessing anatomical structures. However, each of the datasets is small, partially labeled, and rarely investigates severe tumor subjects. Moreover, current models are limited to segmenting specific organs/tumors, which can not be extended to novel domains and classes. To tackle these limitations, we introduce embedding learned from Contrastive Language-Image Pre-training (CLIP) to segmentation models, dubbed the CLIP-Driven Universal Model. The Universal Model can better segment 25 organs and 6 types of tumors by exploiting the semantic relationship between abdominal structures. The model is developed from an assembly of 14 datasets with 3,410 CT scans and evaluated on 6,162 external CT scans from 3 datasets. We rank first on the public leaderboard of the Medical Segmentation Decathlon (MSD) and achieve the state-of-the-art results on Beyond The Cranial Vault (BTCV). Compared with dataset-specific models, the Universal Model is computationally more efficient (6x faster), generalizes better to CT scans from varying sites, and shows stronger transfer learning performance on novel tasks. The design of CLIP embedding enables the Universal Model to be easily extended to new classes without catastrophically forgetting the previously learned classes.
translated by 谷歌翻译
In this work, we tackle two vital tasks in automated driving systems, i.e., driver intent prediction and risk object identification from egocentric images. Mainly, we investigate the question: what would be good road scene-level representations for these two tasks? We contend that a scene-level representation must capture higher-level semantic and geometric representations of traffic scenes around ego-vehicle while performing actions to their destinations. To this end, we introduce the representation of semantic regions, which are areas where ego-vehicles visit while taking an afforded action (e.g., left-turn at 4-way intersections). We propose to learn scene-level representations via a novel semantic region prediction task and an automatic semantic region labeling algorithm. Extensive evaluations are conducted on the HDD and nuScenes datasets, and the learned representations lead to state-of-the-art performance for driver intention prediction and risk object identification.
translated by 谷歌翻译